Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente für die Korpora im Projekt 'Digitales Wörterbuch der deutschen Sprache' (DWDS)
نویسندگان
چکیده
Dieser Beitrag gibt einen Überblick über die laufenden Arbeiten im Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK), in dem ein Korpus zur Sprachverwendung in der deutschsprachigen internetbasierten Kommunikation aufgebaut wird. Das Korpus ist als eine Zusatzkomponente zu den Korpora im BBAW-Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS, http://www.dwds.de) konzipiert, die die geschriebene deutsche Sprache seit 1900 dokumentieren. Wir geben einen Überblick über die Motivation und Konzeption des Korpus sowie über die Projektziele (Abschnitte 2 und 3) und berichten über ausgewählte Anforderungen und Vorarbeiten im Zusammenhang mit der Korpuserstellung: a) die Integration des Korpus in die Korpusinfrastruktur des DWDS-Projekts (Abschnitt 4); b) die Entwicklung eines Schemas für die Repräsentation der strukturellen und linguistischen Besonderheiten von IBKKorpora auf der Basis der Repräsentationsformate der Text Encoding Initiative (TEI-P5) (Abschnitt 5). Der Artikel schließt mit einer Skizze der Anwendungsszenarien für das Korpus in der korpusgestützten Sprachanalyse und der gegenwartssprachlichen Lexikographie (Abschnitt 6) sowie mit einem Ausblick (Abschnitt 7).
منابع مشابه
Webkorpora in Computerlinguistik und Sprachforschung Web Corpora for Computational Linguistics and
Dieser Beitrag gibt einen Überblick über die laufenden Arbeiten im Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK), in dem ein Korpus zur Sprachverwendung in der deutschsprachigen internetbasierten Kommunikation aufgebaut wird. Das Korpus ist als eine Zusatzkomponente zu den Korpora im BBAW-Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS, http://www.dwd...
متن کاملXML als Beschreibungssprache syntaktisch annotierter Korpora
In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören das Brown-Korpus, das SusanneKorpus, die Penn-Treebank, das Negra-Korpus, das Tiger-Korpus und die im Zusammenhang mit dem Verbmobil-Projekt entstandenen Korpora. Neben den bekannten Differenzen in den zur Annotierung verwendeten Vokabularen (morpho-syntaktische Tag...
متن کاملStrukturelle Mehrdeutigkeit in frühneuhochdeutschen Texten
In der synchron orientierten Sprachwissenschaft ist in letzter Zeit ein verstärktes Interesse an syntaktisch annotierten Korpora zu erkennen. Für das Gegenwartsdeutsche wären hier das tigerbzw. negra-Projekt zu nennen, in deren Rahmen bereits umfangreiche, syntaktisch annotierte Zeitungskorpora entstanden sind (Brants et al. 1999, 2002). Gerade in früheren Sprachstufen sind digitalisierte und l...
متن کاملHiTS: ein Tagset für historische Sprachstufen des Deutschen
Im Kontext der Projekte zur Erstellung historischer Sprachkorpora „Referenzkorpus Altdeutsch“ und „Referenzkorpus Mittelhochdeutsch“ entstand ein Tagset für die Wortartanalyse, HiTS („Historisches Tagset“). Im Projekt „Referenzkorpus Frühneuhochdeutsch“ wird eine vereinfachte Version davon angewendet, da v.a. die späteren Zeiträume schon nahe am neuhochdeutschen (nhd.) Stand sind.2 HiTS orienti...
متن کاملMaschinelle Übersetzung auf der Basis der Logotechnik
Zusammenfassung: Zunächst wird eingegangen auf die Sprache als Gegenstand der Übersetzung. Danach werden die zentralen Prinzipien zur Ermittlung der Sprachstruktur am Beispiel des Deutschen aufgezeigt. Auf der Basis dieser Erkenntnisse lassen sich die Grundlagen eines Computersystems erstellen, in dessen Zentrum die "Relationsbasis" steht, die eine automatische Wissensakquisition ermöglicht. Zu...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- JLCL
دوره 28 شماره
صفحات -
تاریخ انتشار 2013